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基于 媒体 语料库 的 检 校 体系 探索 


( 新 华 通讯 社 通 信 技 术 局 ， 北 京 100803 ) 


摘 要 : 新 闻 采 编 中 除 一 些 印 刷 错 误 外 ,很 多 错误 是 潜在 的 语义 级 错误 。 语 义 错误 需要 检查 语句 中 所 表达 的 语义 和 语 用 是 否 
违背 了 某 种 标准 ， 采 用 以 往 的 文本 检 校 方法 ,很 难 发 现 这 些 语义 错误 。 例如， 报刊 、 网 络 文章 中 出 现 的 一 些 关于 中 国 台 湾 问 
题 的 不 正确 表述 等 ， 利 用 自动 检 校 工具 来 纠 错 难度 是 相当 大 的 。 但 类 似 错 误 对 新 闻 机 构 的 影响 不 可 小 讽 ， 部 分 可 能 是 影响 与 
论 导 向 的 政治 性 错误 ， 是 编辑 部 检 校 的 重 中 之 重 。 因 此 ， 充 分 利用 媒体 语料库 的 新 闻 采 编 检 校 是 新 闻 文 本 自动 检 校 的 重要 发 
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= 
可 在 中 文 检 校 领域 ， 目 前 市 场 上 有 很 多 检 校 软件 和 服 。 1.1 已 发 布 的 新 闻 内 容 数 据 

上 ~ 务 ， 在 语料库 覆盖 、 词 库容 量 、 检 校 算 法 、 系 统 兼容 等 新 华 社 在 长 期 的 新 闻 采 编 工 作 中 积累 了 海量 上 且 权威 
号 方面 调研 的 结果 分 析 和 实际 使 用 体验 表明 ， 由 于 软件 本 ”的 新 闻 语 料 ， 对 构建 新 华 社 新 闻 报道 专属 媒体 语料库 具 
©O 身 的 局 限 性 ， 在 语义 层面 的 检 校 能 力 有 限 ， 部 分 词 库 不 ” 有 绝对 优势 。 这 些 语 料 经 过 了 严格 的 软件 和 人 工 校对 ， 
OO 能 自动 在 线 更 新 也 是 一 大 次 病 ， 仍 需要 检 校 人 员 做 进 具备 高 度 的 准确 性 和 规范 性 。 同 时 ， 其 语言 特性 ， 词 汇 
一 步 的 人 工 检 校 。 然 而 采用 人 工 检 校 , 劳动 强度 大 、 成 本 高 ， “和 短语 搭配 的 统计 特性 ， 可 以 为 模型 训练 提供 丰富 的 正 
SS 并 且 由 于 检 校 人 员 的 责任 心 或 视觉 疲劳 等 问题 ， 仍 会 漏 样本。 该 部 分 语 料 的 规模 将 远 超 以 往 学 界 研究 中 所 用 的 
© 掉 一 些 错误 。 有 时 ， 某 些 错误 ， 尤 其 是 带 有 语义 的 错误 规模 , 为 训练 大 规模 深度 学 习 模 型 提供 有 力 的 数据 保障 。 
A 是 会 被 放大 的 ， 甚 至 被 某 些 居心 巨 测 的 人 或 媒体 利用 ， 1.2 经 过 专家 修改 的 新 闻 文 本 数据 以 及 修改 前 的 数据 
> 造成 不 良 影响 。 这 就 进一步 要 求 在 检 校 技术 中 侧重 研究 负 样 本 对 机 器 学 习 模 型 是 必 不 可 少 的 。 学 习 算 法 需 
< 含 语义 分 析 乃 至 知识 库 先 验 策略 的 检 校 技术 ， 以 弥补 现 ”要 从 负 样 本 中 挖掘 语义 错误 的 各 种 模式 ， 并 进行 推广 。 
人 阶段 检 校 软件 的 缺陷 。 负 样 本 中 的 语义 错误 应 当 和 实际 中 的 错误 有 尽 可 能 相似 
.全 1. 利用 新 华 社 现 有 媒体 语料库 构建 有 效 元 数据 的 特性 。 新 华 社 的 校对 人 员 在 其 长 期 工作 中 ， 检 查 并 改 
二 语料库 是 应 用 计算 机 技术 对 海量 自然 语言 材料 进行 ” 正 了 各 种 类 型 的 语义 错误 ,保障 了 新 闻 报道 的 准确 性 。 
© 统计 分 析 的 大 型 资料 库 。 新 华 社 作为 国家 通讯 社 , 具有 ”这 些 人 工 校 对 检查 出 的 错误 ， 以 及 修改 前 的 数据 将 是 非 


海量 且 权 威 的 新 闻 语料库 ， 对 构建 新 华 社 新 闻 报 道 专属 
媒体 语 料 元 数据 具有 绝对 优势 。 典 型 的 语料库 系统 应 包 
括 : 文档 的 抽取 及 元 数据 创建 ;自动 词性 /语法 标注 ， 索 
引 、 检 索 和 统计 分 析 等 功能 模块 。 其 中 最 为 重要 的 是 词性 、 
句法 、 语 误 的 标注 环节 ， 系 统 提供 的 标注 手段 和 准确 率 
直接 关系 着 语料库 的 建设 规模 大 小 和 研究 成 果 的 优 劣 。™ 
故而 ， 在 充分 利用 新 华 社 多 媒体 数据 库 中 丰富 的 新 闻 语 
料 构 建 专 用 元 数据 的 同时 ， 更 需要 经 验 丰 富 的 编辑 和 检 
校 人 员 配 合 筛 选 和 提供 用 于 训练 检 校 模型 的 正 例 和 负 例 
样本 ， 这 些 样 本 集 的 先 验 数据 的 可 用 性 将 会 直接 影响 检 
校 模型 的 检 错 率 。 

机 咒 学 习 和 深度 学 习 算 法 可 以 从 数据 中 自动 挖掘 统 
计 规 律 ， 学 出 计算 模型 。 数据 的 质量 和 数量 对 模型 的 
效果 至 关 重 要 ， 近 年 来 深度 学 习 获 得 成 功 的 一 个 重要 因 
素 便 是 大 数据 的 支持 。 对 新 闻 采 编 的 语义 校对 来 说 ， 建 
立 大 型 专属 语料库 必 不 可 少 。 


常 有 价值 的 负 样 本 数据 ， 并 为 负 样 本 的 自动 生成 算法 提 
供 非常 好 的 参考 和 局 发 。 比 如， 有 些 语义 错误 往往 是 输 
入 了 错误 的 同音 或 近 音 词 ， 该 词 本 身 没有 错误 ， 但 是 和 
前 后 词语 搭配 起 来 在 语义 上 明显 不 同 。 针 对 这 个 规律 便 
可 以 对 正 样本 进行 随机 同音 或 近 音 词 蔡 换 来 生成 负 样本 。 
通过 采集 和 生成 这 两 种 手段 ， 可 以 获得 海量 且 高 质量 的 
负 样 本 数据 。 
1.3 大 量 的 全 网 新 闻 文 本 数据 

除了 新 华 社 提供 的 权威 数据 ， 对 互联 网 上 可 以 搜索 
到 的 大 型 纸 媒 或 者 网 络 媒体 ， 也 存在 大 量 的 新 闻 数 据 可 
以 作为 训练 样本 。 通 常 采 用 数据 抓 取 技术 ， 对 这 部 分 数 
据 进行 抓 取 ， 形 成 更 加 全 面 和 强大 的 新 闻 数 据 库 。 目 前 
网 络 疏 虫 技 术 已 经 非常 成 熟 ， 例 如 今日 头条 、 百 度 新 闻 
中 都 对 媒体 的 数据 进行 了 抓 取 和 聚合 。 在 爬虫 技术 中 ， 
加 入 正文 提取 技术 进行 辅助 , 因为 对 不 同 数据 源 的 数据 ， 
网 页 结构 都 有 不 同 ， 故 而 使 用 更 具 针对 性 的 爬虫 设计 ， 
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可 以 实现 对 不 同 网 站 新 闻 数 据 的 海量 爬 取 。 

1.4 领域 知识 数据 

新 闻 采 编 中 可 能 会 过 到 一 些 知 识 性 错误 , 比如 人 物 、 
事件 、 地 点 和 时 间 等 发 生 了 错误 的 对 应 和 搭配 。 这 类 错 
误 涉及 的 语法 和 前 后 语义 搭配 没有 问题 ， 仅 仅 依 靠 语言 
本 身 的 特性 无 法 成 功 检测 ， 必 须 利 用 和 报道 领域 相关 的 
专 有 知识 。 知 识 图 谱 是 一 种 对 信息 进行 结构 化 组 织 和 表 
示 的 工具 。 它 将 各 类 事物 表示 为 实体 ， 将 事物 之 间 的 关 
系 表 示 为 实体 之 间 的 各 种 链接 ， 并 用 这 种 方式 将 人 类 世 
界 中 的 知识 组 织 起 来 ， 从 而 为 各 种 与 知识 相关 的 应 用 提 
供 支持 。 知 识 图 谱 在 搜索 引擎 、 信 息 检 索 和 自动 问答 中 
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层 特征 ， 这 些 特 征 在 工业 界 中 已 有 广泛 应 用 ， 并 取得 了 
不 错 的 效果 。 条 件 随机 场 可 以 学 习 到 前 后 词语 搭配 组 合 
的 统计 特性 ， 并 据 此 对 语义 错误 进行 预测 。 
2.2 深度 学 习 建 模 

条 件 随 机 场 是 一 种 传统 的 浅 层 模型 ， 模 型 的 复杂 程 
度 较 低 ， 只 能 学 习 到 相对 较 小 的 上 下 文 依赖 关系 。 近 年 
来 深度 学 习 模 型 在 人 工 智能 的 各 类 应 用 中 都 取得 了 优异 
的 效果 ， 它 通过 多 层 神 经 网 络 从 数据 中 学 习 高 度 抽 象 的 
特征 和 统计 规律 。 由 于 模型 的 建 模 能 力 和 计算 的 并 行程 
度 都 很 高 ， 深 度 学 习 非 常 适合 与 大 数据 结合 的 应 用 ， 能 
够 充分 地 利用 海量 语料库 的 优势 ， 学 习 词 语 搭配 中 较 长 


已 有 非常 成 功 的 应 用 ， 多 年 以 来 一 直 是 各 大 科技 公司 和 
学 校 研究 的 热点 ， 相 关 的 技术 也 比较 成 熟 。 

在 检 校 体系 构建 中 ， 此 部 分 包括 知识 图 谱 的 构建 和 
应 用 两 个 阶段 。 第 一 阶段 是 建立 针对 新 闻 报道 的 大 规模 
知识 图 谱 。 这 部 分 工作 通过 多 种 算法 的 组 合 来 实现 知识 
图 谱 的 自动 构建 。 首 先是 对 已 有 大 规模 知识 库 ， 如 百度 
百科 、 维 基 百 科 进 行 知 识 提取 , 其 中 包括 大 量 结构 化 知识 ， 
又 需要 简单 的 操作 便 可 高 效 转化 到 知识 图 谱 中 。 此 外 ， 
互联 网 网 页 中 也 列 藏 了 海量 的 知识 ， 这 些 知 识 往往 以 非 
结构 化 的 形式 存在 ， 比 知识 库 要 杂乱 一 些 ,但 通过 自然 
语言 处 理 等 自动 化 技术 也 可 以 将 其 抽取 出 来 ， 并 加 入 知 
识 图 谱 。 最 后 ， 对 多 个 来 源 的 知识 进行 融合 ， 对 知识 图 
谱 内 的 实体 关系 进行 推理 ， 吻 除 一 些 错 误 的 知识 ， 进 一 
步 改 进 知 识 图 谱 的 质量 。 第 二 个 阶段 ， 借 助 知识 图 谱 设 
计 语 料 知识 的 查询 和 验证 算法 ， 实 现 对 知识 性 错误 的 检 
测 功 能 。 包 括 新 闻 语 句 中 的 实体 抽取 ， 实 体 链接 ， 与 知 
识 图 谱 中 相应 的 内 容 进行 对 比 并 返回 结果 等 。 
2. 机 器 学 习 辅 助 实现 自动 新 闻 文 本 纠 错 模型 

语义 分 析 中 可 使 用 条 件 随 机 场 ， 深 度 学 习 卷 积 神经 
网 络 、 知 识 图 谱 等 机 器 学 习 模 型 实现 自动 新 闻 文 本 纠 错 
模型 的 构建 。 

综合 使 用 这 三 种 先进 的 算法 将 可 实现 更 加 优化 的 新 
闻 文 本 校对 算法 。 语 义 错误 的 检测 依赖 于 文本 的 上 下 文 
信息 ， 这 就 要 求 模型 能 够 学 习 到 一 定 范围 内 的 上 下 文 的 
依赖 关系 ， 该 范围 可 从 短语 到 单条 语句 甚至 多 条 语句 。 
2.1 概率 模型 纠 错 预测 

概率 图 是 将 图 结构 和 概率 统计 相 结 合 的 一 种 模型 ， 
适用 于 针对 特定 结构 的 数据 的 推理 和 预测 任务 ， 在 文本 
这 种 序列 数据 的 处 理 中 有 广泛 的 应 用 。 条 件 随机 场 是 一 
种 处 理 上 下 文 信息 常用 的 概率 图 模型 。 条 件 随机 场 从 多 
个 连续 字 词 中 抽取 特征 作为 输入 ， 并 计算 输出 标记 序列 
的 联合 概率 分 布 ， 输 出 标记 可 以 根据 应 用 的 目标 而 定 。™ 
输出 标记 可 以 对 应 词语 的 适合 程度 ， 当 适合 程度 过 低 时 
将 其 归 为 错误 。 条 件 随机 场 在 多 个 自然 语言 处 理 任务 中 
都 有 成 功 的 应 用 ， 包 括 词 性 标注 、 句 法 分 析 和 命名 实体 
识别 等 。 输 入 特征 可 以 使 用 词性 特征 和 词 向 量 特征 等 浅 


范围 的 上 下 文 依赖 关系 。 

使 用 卷 积 神经 网 络 和 递归 神经 网 络 来 完成 语义 校对 
的 功能 ， 首 先 对 语句 进行 分 词 的 预 处理 ， 每 个 词 用 初始 
化 的 词 向 量 表 示 ， 然 后 将 词 向 量 的 长 序列 输入 到 深层 神 
经 网 络 中 ， 最 终 输出 每 个 词 存在 错误 的 概率 。 呈 整个 过 
程 除了 分 词 的 预 处 理 步骤， 完全 是 自动 学 习 的 ， 不 需要 
任何 手工 设计 的 特征 。 
2.3 基于 知识 图 谱 进 行 更 高 级 的 语义 纠 错 

深度 学 习 可 以 学 习 较 大 范围 的 上 下 文 依赖 ， 但 是 很 
难 对 知识 性 的 错误 进行 检测 和 纠正 。 这 类 错误 的 校对 需 
要 依赖 知识 图 谱 来 完成 。 这 部 分 任务 的 主要 内 容 是 设计 
实体 抽取 、 实 体 链接 和 实体 关系 抽取 等 算法 。 实 体 抽取 
是 从 语句 中 抽取 表示 具体 人 物 、 地 点 、 物 品 等 的 实体 。 
一 种 方法 是 通过 词性 标注 来 找 出 语句 中 的 名 词 ， 它 们 往 
往 和 实体 对 应 。 还 可 以 建立 专 有 实体 的 词 库 ， 并 对 文本 
进行 匹配 查询 。 实 体 链 接 是 将 抽取 出 的 实体 和 知识 图 谱 
' 存 储 的 实体 进行 联系 和 对 应 ， 消 除 实体 的 模糊 性 和 可 
能 的 歧义 。 这 部 分 任务 也 需要 利用 上 下 文 信息 ， 可 以 
再 次 应 用 前 文中 所 述 的 条 件 随机 场 和 深度 学 习 模 型 。 实 
体 关 系 抽 取 是 从 语句 中 抽取 两 个 实体 之 间 的 语义 关系 。 
有 很 多 方法 可 以 用 于 关系 抽取 ， 包 括 基 于 特征 的 监督 学 
习 方 法 ， 基 于 自 展 法 的 半 监 督学 习 方法 ， 基 于 聚 类 的 无 
监督 抽取 方法 。 完 成 这 些 步 又 后 ， 便 可 以 在 知识 图 谱 
查询 和 比 对 ， 并 返回 知识 的 验证 结果 。 
3. 基于 媒体 语料库 的 检 校 软件 研发 的 切实 意义 

充分 结合 新 华 社 既 有 语料库 ， 规 范 新 闻 采 编 用 语 。 
新 华 社 每 天 签发 2000 余 篇 稿件 ， 其 中 仅 中 文稿 日 均 稿 量 
也 有 近 800 篇 。 除 此 之 外 ， 新 华 社 还 发 布 了 《新 华 社 新 
闻 报 道中 的 禁用 词 》 等 ， 对 若干 领域 的 新 闻 报 道 用 词 加 
以 规范 。 这 些 丰 富 且 专业 的 语 料 对 新 华 社 而 言 无 疑 是 宝 
贵 的 财富 。 同 时 ， 深 度 学 习 的 先决 条 件 就 是 需要 大 量 的 
有 效 数据 。 因 此 ， 新 华 社 的 新 闻 语料库 对 检 校 模型 的 训 
练 具有 重大 意义 。 以 语料库 中 已 有 的 正确 数据 作为 先 验 ， 
结合 生成 或 添加 的 大 量 负 例 样 本 ， 和 迭代 完善 检 校 模型 ， 
从 而 实现 对 新 闻 报 道 用 语 规范 的 监督 校 验 作 用 。 

优化 检 校 流程 ， 提 高 工作 效率 。 目 前 各 大 编辑 部 使 
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用 的 检 校 软件 能 够 解决 部 分 别 字 类 错误 ， 加 入 语义 级 错 
误 的 识别 功能 无 疑 是 对 检 校 流程 的 进一步 优化 和 改善 ， 
提升 新 闻 工 作 效率 ， 同 时 也 更 好 地 保证 新 闻 产品 的 产 出 
质量 。 

值得 提出 的 是 ， 自 动 检 校 工具 在 新 闻 工 作 中 仅 能 作 
为 辅助 工作 的 手段 ， 并 无 法 完全 避免 所 有 文字 和 语法 语 
义 上 的 差错 。 因 此 ， 自 动 检 校 工具 软件 在 优化 工作 流程 
和 提高 工作 效率 的 同时 ， 为 新 闻 工 作者 节省 一 定 的 时 间 
和 精力 ， 并 不 意味 着 可 以 省 去 人 工 审 稿 的 环节 ， 而 是 有 
更 多 的 精力 去 优化 新 闻 稿 的 采写 。 

训练 专 有 检 校 模型 ， 更 好 地 服务 于 不 同 内 容 领 域 的 
检 校 工作 。 在 不 同 新 闻 内 容 领域 ， 如 教育 、 医 疗 、 能 源 、 
政治 等 ， 常 用 词 和 专 有 词汇 交集 很 少 ， 在 专 有 领域 利用 
深度 神经 网 络 训练 特有 的 检 校 模型 对 该 领域 的 语义 级 识 
别 将 更 准确 。 目 前 新 华 社 使 用 的 编辑 系统 中 ， 每 一 篇 稿 
件 都 具有 稿件 分 类 的 专用 字段 ， 利 用 该 字段 对 检 校 模型 
进行 选择 ， 调 用 相应 检 校 算法 对 当前 文稿 进行 分 析 ， 获 
得 更 准确 的 检 校 结果 。 
语 


淀 于 


= 


基于 媒体 语料库 的 智能 检 校 并 不 是 一 个 简单 的 技术 
任务 ， 需 经 验 丰富 的 新 闻 工 作者 的 支持 。 基 于 媒体 语 料 
库 的 深度 学 习 ， 姓 庸 置 疑 ， 语料库 的 选择 是 决定 性 条 件 
之 一 。 在 新 华 社 多 媒体 数据 库 中 ， 有 海量 的 新 闻 稿 作为 
深度 学 习 的 正 例 ， 负 例 的 构建 或 生成 就 需要 借助 经 验 丰 
富 的 新 闻 工 作者 的 积累 ， 对 以 往 典 型 的 、 常 见 类 型 的 错 
误 进 行 收集 作为 负 例 中 的 重要 部 分 。 深 度 神经 网 络 的 多 
层 结 构 的 好 处 就 是 可 以 用 较 少 的 参数 来 表示 复杂 的 函数 。 
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坚定 道路 自信 的 集中 体现 。 如 今 的 江 教 集团 已 然 探 索 出 
一 条 适合 自身 发 展 、 符 合 国家 要 求 、 响 应 人 民 期 竺 发展 
道路 ， 正 成 为 江西 省 内 ， 乃至 全 国教 育 传媒 业 转 型 创新 
中 的 典型 样板 。 与 市 场 化 、 企 业 化 转型 相 适应 ， 江 教 集 
团 迅 速 解放 思想 ， 建 立 起 相 匹配 的 人 员 选 拔 机 制 、 考 核 
激励 机 制 、 质 量 管理 机 制 等 与 传媒 企业 相 适 应 的 现代 企 
业 管理 制度 ， 通 过 机 制 的 创新 驱动 事业 的 发 展 ， 江 教 集 
团 的 综合 实力 进入 全 国 30 余 家 省 级 教育 报刊 社 第 一 方 阵 。 
结语 

借用 习近平 总 书记 在 全 国教 育 大 会 上 关于 “坚持 以 
人 民 为 中 心 发 展 教育 ， 核 心 就 是 办 好 人 民 满 意 的 教育 ” 
的 观点 ， 那 么 做 好 教育 服务 与 宣传 ， 其 核心 就 是 加 快 构 
建 以 人 民 为 中 心 的 教育 传媒 发 展 格局 。 坚 定 不 移 遵 循 服 
务 群众 、 依 徘 群 众 、 联 系 群众 的 根本 原则 ， 继 续 深 化 教 
育 传媒 改革 ， 加 强 宣传 与 引导 ， 不 断 满足 人 民 对 教育 信 
息 服务 的 多 样 化 需求 ， 真 正 让 人 民 共 享 教育 传媒 发 展 的 
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同时 , 这 又 要 求 训练 样本 数据 能 够 尽量 覆盖 未 来 的 样本 ， 
那么 学 习 到 的 多 层 权 重 便 可 以 很 好 地 用 来 预测 新 的 样本 。 
故而 ， 样 本 的 构建 需 有 丰富 编写 和 检 校 经 验 的 新 闻 工 作 
者 的 支持 ， 筛 选 和 构造 正 负 例 样 本 ， 以 及 不 同 别 字 和 语 
义 错误 的 出 错 率 权重 的 判定 。 只 有 得 到 足够 多 的 有 效 样 
本 ， 对 未 来 测试 样本 的 识别 率 才 可 能 得 以 提升 。 新 闻 工 
作者 在 稿件 采写 和 检 校 的 丰富 经 验 与 人 工 智能 技术 紧密 
结合 ， 才 能 使 工具 软件 为 新 闻 工 作 提供 更 好 的 服务 。 四 
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